<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   知乎精彩问答：「数据会说谎」的真实例子有哪些？  | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://dataunion.org/11551.html",
                  host: "http://dataunion.org",
                  prePath: "http://dataunion.org",
                  scheme: "http",
                  pathBase: "http://dataunion.org/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466455084: Accept with keywords: (title(0.2):精彩,社区,例子,数据,数盟, topn(0.433333333333):结论,数盟,标准差,差距,数据分析,算术平均,结果,数据库,豆瓣,可视化,文章,数据,主体,抽样,样本,用户,指标,离群,随机抽样,趋势,平均数,抽样误差,标准化,中位数,数值,方法,单位,人员,例子,缺点).-->
 </head>
 <body onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    知乎精彩问答：「数据会说谎」的真实例子有哪些？
   </h1>
  </div>
  <div class="container" id="xmain">
   ﻿﻿
   <title>
    知乎精彩问答：「数据会说谎」的真实例子有哪些？ | 数盟社区
   </title>
   <!-- All in One SEO Pack 2.2.7.6.2 by Michael Torbert of Semper Fi Web Design[32,70] -->
   <!-- /all in one seo pack -->
   <!--
<div align="center">
<a href="http://strata.oreilly.com.cn/hadoop-big-data-cn?cmp=mp-data-confreg-home-stcn16_dataunion_pc" target="_blank"><img src="http://dataunion.org/wp-content/uploads/2016/05/stratabj.jpg"/ ></a>
</div>
-->
   <header id="header-web">
    <div class="header-main">
     <hgroup class="logo">
      <h1>
       <a href="http://dataunion.org/" rel="home" title="数盟社区">
        <img src="http://dataunion.org/wp-content/themes/yzipi/images/logo.png"/>
       </a>
      </h1>
     </hgroup>
     <!--logo-->
     <nav class="header-nav">
      <ul class="menu" id="menu-%e4%b8%bb%e8%8f%9c%e5%8d%95">
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-71" id="menu-item-71">
        <a href="http://dataunion.org/category/events" title="events">
         活动
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-22457" id="menu-item-22457">
          <a href="http://dataunion.org/2016timeline">
           2016档期
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-22459" id="menu-item-22459">
          <a href="http://dataunion.org/category/parterc">
           合作会议
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-20869" id="menu-item-20869">
        <a href="http://dataunion.org/category/tech" title="articles">
         文章
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20867" id="menu-item-20867">
          <a href="http://dataunion.org/category/tech/base" title="base">
           基础架构
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3302" id="menu-item-3302">
          <a href="http://dataunion.org/category/tech/ai" title="ai">
           人工智能
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3303" id="menu-item-3303">
          <a href="http://dataunion.org/category/tech/analysis" title="analysis">
           数据分析
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21920" id="menu-item-21920">
          <a href="http://dataunion.org/category/tech/dm">
           数据挖掘
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3314" id="menu-item-3314">
          <a href="http://dataunion.org/category/tech/viz" title="viz">
           可视化
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3305" id="menu-item-3305">
          <a href="http://dataunion.org/category/tech/devl" title="devl">
           编程语言
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-20876" id="menu-item-20876">
        <a href="http://dataunion.org/category/industry">
         行业
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-16328" id="menu-item-16328">
          <a href="http://dataunion.org/category/industry/case" title="case">
           行业应用
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-2112" id="menu-item-2112">
          <a href="http://dataunion.org/category/industry/demo" title="demo">
           Demo展示
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21562" id="menu-item-21562">
          <a href="http://dataunion.org/category/industry/news">
           行业资讯
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-311" id="menu-item-311">
        <a href="http://dataunion.org/category/sources" title="sources">
         资源
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20870" id="menu-item-20870">
        <a href="http://dataunion.org/category/books" title="book">
         图书
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21363" id="menu-item-21363">
        <a href="http://dataunion.org/category/training">
         课程
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-21853" id="menu-item-21853">
        <a href="http://dataunion.org/category/jobs">
         职位
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-22050" id="menu-item-22050">
          <a href="http://dataunion.org/category/career">
           职业规划
          </a>
         </li>
        </ul>
       </li>
      </ul>
     </nav>
     <!--header-nav-->
    </div>
   </header>
   <!--header-web-->
   <div id="main">
    <div id="soutab">
     <form action="http://dataunion.org/" class="search" method="get">
     </form>
    </div>
    <div id="container">
     <nav id="mbx">
      当前位置：
      <a href="http://dataunion.org">
       首页
      </a>
      &gt;
      <a href="http://dataunion.org/category/uncategorized">
       未分类
      </a>
      &gt;  正文
     </nav>
     <!--mbx-->
     <article class="content">
      <header align="centre" class="contenttitle">
       <div class="mscc">
        <h1 class="mscctitle">
         <a href="http://dataunion.org/11551.html">
          知乎精彩问答：「数据会说谎」的真实例子有哪些？
         </a>
        </h1>
        <address class="msccaddress ">
         <em>
          2,207 次阅读 -
         </em>
         <a href="http://dataunion.org/category/uncategorized" rel="category tag">
          未分类
         </a>
        </address>
       </div>
      </header>
      <div class="content-text">
       <p>
        问：「数据会说谎」的真实例子有哪些？
       </p>
       <div class="zm-item-rich-text zm-editable-status-normal" data-action="/question/detail" data-resourceid="11334" id="zh-question-detail">
        <div class="zm-editable-content">
         究竟是数据在说谎，还是逻辑在说谎？最好是你遇到的真实案例，你是如何判断数据表明的错误的？
        </div>
        <div class="zm-editable-content">
        </div>
        <div class="zm-editable-content">
         <h3 class="zm-item-answer-author-wrap">
          <a data-tip="p$t$hanhsiao" href="http://www.zhihu.com/people/hanhsiao">
           Han Hsiao
          </a>
          答：[1600赞]
         </h3>
         <p>
          <b>
           一、数据来源如何说谎
          </b>
          <br/>
          最简单的层级，在查阅统计报告之前首先应该关注的是报告出处以及数据来源。以工业品和消费品为例主要的数据来源如下所示：
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/1.jpg">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/1.jpg"/>
          </a>
          <br/>
          关于数据的来源我们需要注意四点：
         </p>
         <p>
          <b>
           (1).数据发布机构是否权威？（代表性）
          </b>
          <br/>
          网上主流的数据资源太多，以下列举一些，不一而足。
         </p>
         <ul>
          <li>
           <a class=" wrap external" href="http://www.drcnet.com.cn/www/integrated/" rel="nofollow noreferrer" target="_blank">
            国研网
            <i class="icon-external">
            </i>
           </a>
           ：行研报告，各类数据（需要付费T T）。
          </li>
          <li>
           <a class=" wrap external" href="http://219.235.129.58/welcome.do" rel="nofollow noreferrer" target="_blank">
            国家统计局数据库
            <i class="icon-external">
            </i>
           </a>
           ：宏观数据、金融、教育、行业数据等，包含国家一级、31个省以及200多个市的数据。
          </li>
          <li>
           <a class=" wrap external" href="http://www.stats.gov.cn/tjsj/ndsj/" rel="nofollow noreferrer" target="_blank">
            《中国统计年鉴
            <i class="icon-external">
            </i>
           </a>
           》：历年统计年鉴以及普查数据、专题数据等。
          </li>
          <li>
           <a class=" wrap external" href="http://unstats.un.org/unsd/default.htm" rel="nofollow noreferrer" target="_blank">
            United Nations Statistics Division
            <i class="icon-external">
            </i>
           </a>
           ：联合国数据库
          </li>
          <li>
           <a class=" wrap external" href="http://data.worldbank.org/" rel="nofollow noreferrer" target="_blank">
            Data | The World Bank
            <i class="icon-external">
            </i>
           </a>
           ： 世界银行数据库
          </li>
          <li>
           <a class=" wrap external" href="http://www.research.stlouisfed.org/fred2/" rel="nofollow noreferrer" target="_blank">
            Federal Reserve Economic Data
            <i class="icon-external">
            </i>
           </a>
           ：美联储数据库
          </li>
          <li>
           <a class=" wrap external" href="http://wwwgateway.ciesin.org/" rel="nofollow noreferrer" target="_blank">
            Socioeconomic Data and Applications Center
            <i class="icon-external">
            </i>
           </a>
           ：美国航空航天局NASA的地球观测系统数据
          </li>
         </ul>
         <p>
          <b>
           (2).是否是发布机构原版文件？（可信度）
          </b>
         </p>
         <p>
          <b>
           (3).数据采集面向的对象？（调研主体）
          </b>
          <br/>
          举例说明。产品可分为工业类产品和消费类产品，它们在基本属性、购买特征、营销理念等方面有本质的不同，所以需要调研的主体不同。
         </p>
         <ul>
          <li>
           工业类产品：供需双方一般都是企业，需要了解总产值、总产量、销售总额、销售总量，所以调研主体以企业为主。
          </li>
          <li>
           消费类产品：面向大众消费者，统计口径一般是零售市场消费总量、总额，所以调研主体以个体消费者为主。
          </li>
         </ul>
         <p>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/2.jpg">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/2.jpg"/>
          </a>
         </p>
         <p>
          <b>
           (4).数据是一手数据还是二手数据
          </b>
          <b>
           ？（时效性，相关性）
          </b>
         </p>
         <ul>
          <li>
           <b>
            一手数据
            <b>
             （Primary data）
            </b>
            ：
           </b>
           也称原始数据。指通过人员访谈、询问、问卷、测定等方式直截获得的，时效性和相关性更好。
          </li>
          <li>
           <b>
            二手数据
            <b>
             （Secondary data）
            </b>
            ：
           </b>
           利用文献，统计年报以及数据库等前人统计好的数据资料。优点是获取成本低，且现成可用。一般可以长时间保存，生成数据趋势图方便。
          </li>
         </ul>
         <p>
          栗子：研究人员希望了解工人在遇到工伤后返回工作的情况。
         </p>
         <ul>
          <li>
           一手数据：通过电话采访工人，询问他们多久时间能回到工作、以及返回到工作流程等问题。研究人员得出结论，包括返回到工作流程包括提供优惠住宿，以及为什么一些工人拒绝了这样的提议。
          </li>
          <li>
           二手数据：包括政府，企业的健康和安全记录，例如工人的受伤率，以及工人在国内不同行业的数据。研究人员发现了工伤索赔额度与全职工人工资额度之间的数量关系。
          </li>
         </ul>
         <p>
          最后将两个数据源相结合，研究人员便能够找到那些能够让受伤的工人愿意马上回到岗位的因素。
         </p>
         <p>
          通过例子可以看出，一手数据提能够提供量身定制的信息，但往往是需要很长的时间以及昂贵的成本。二手数据通常是能够廉价的取得，而且可在更短的时间内进行分析，但由于数据获取的初始目的可能与研究目的不相关，需要梳理信息来提取您要找的内容。数据研究人员选择的类型时候应该考虑很多因素，包括所
          <span style="text-decoration: underline;">
           研究的问题，预算，技术和可用资源
          </span>
          。基于这些因素的影响，他们可能会选择使用一手数据或二手数据，甚至两者兼备。
         </p>
         <p>
          <b>
           (5).
          </b>
          <b>
           数据采集方式是什么?（投票方式）
          </b>
          <br/>
          在网络上进行投票还是在现实中分发问卷有很大的不同，两者都有很多细节点需要注意。
         </p>
         <ul>
          <li>
           网络投票：如何防止机器人，恶意投票以及UI的设计是关键。可以参考推荐系统的用户反馈设计。
          </li>
          <li>
           现实问卷：如何设计题目（逻辑性、完整性、非诱导性）以及投放方式（时间、地点、对象）是关键。可以参考
           <a class=" wrap external" href="http://book.douban.com/subject/5335912/" rel="nofollow noreferrer" target="_blank">
            调查问卷的设计与评估 (豆瓣)
            <i class="icon-external">
            </i>
           </a>
           。
          </li>
         </ul>
         <p>
          <b>
           二、数据统计
          </b>
          <b>
           如何说谎
          </b>
         </p>
         <p>
          数据统计中常常会出现的谎言，这是因为虽然原始的数据相同，但是数据处理的过程不同。具体情况通常可分为四种：抽样方法、样本选取、离群值处理及统计指标设置。
         </p>
         <p>
         </p>
         <p>
          <strong>
           (1).抽样方法的区别
          </strong>
         </p>
         <p>
          <span style="text-decoration: underline;">
           整体样本的维度，粒度和取数逻辑相同的情况
          </span>
          下，不用的样本抽样规则会使数据看来
          <b>
           更符合或不符合“预期”，
          </b>
          从而实现特殊目的。我们知道最基本的定量研究的抽样方法分为两类，一类为非概率抽样，一类为概率抽样。其中概率抽样方法分为四种：
         </p>
         <ul>
          <li>
           <b>
            随机抽样（Simple random sampling）
           </b>
          </li>
         </ul>
         <p>
          方法：将调查总体的观察单位全部编号，再随机抽取部分观察单位组成样本。
          <br/>
          优点：操作简单，均数及相应的标准误计算简单。
          <br/>
          缺点：总体较大时，难以一一编号。
         </p>
         <ul>
          <li>
           <b>
            系统抽样（Systematic sampling，又名机械抽样、等距抽样）
           </b>
          </li>
         </ul>
         <p>
          方法：先将总体的观察单位按某一顺序号分成N个部分，再从第一部分随机抽取第k号观察单位，然后依次使用相等间距，从每一部分各抽取一个观察单位组成样本。
          <br/>
          优点：易于理解、简便易行。
          <br/>
          缺点：总体有周期或增减趋势时，易产生偏差。
         </p>
         <ul>
          <li>
           <b>
            整群抽样（Cluster sampling，整体抽样）
           </b>
          </li>
         </ul>
         <p>
          方法：总体分群，再随机抽取几个群组成样本，群内全部调查。
          <br/>
          优点：便于组织、节省经费。
          <br/>
          缺点：抽样误差大于单纯随机抽样。
         </p>
         <ul>
          <li>
           <b>
            分层抽样（Stratified sampling）
           </b>
          </li>
         </ul>
         <p>
          方法：找到对观察指标影响较大的某种特征，从而将总体分为若干个类别，再从每一层内随机抽取一定数量的观察单位，合起来组成样本。有按比例分配和最优分配两种方案。
          <br/>
          优点：样本代表性好，抽样误差减少。
         </p>
         <p>
          缺点：抽样过程繁杂。
         </p>
         <p>
          各种抽样方法的
          <span style="text-decoration: underline;">
           <b>
            抽样误差
           </b>
          </span>
          一般是：整群抽样≥单纯随机抽样≥系统抽样≥分层抽样。
         </p>
         <p>
          栗子1：在建立客户流失模型时，使用
          <span style="text-decoration: underline;">
           分层抽样
          </span>
          。假如两次调研的抽样样本分别是最近一年未消费流量的客户和最近一年未消费流量但经常收发短信的客户，不用做测试基本上就可以确定后者的流失可能性更小。而如果使用随机抽样则很难得出上述结论，所以数据抽样方法的选择对结论影响较大，实际操作时具体需要深入到SQL查询逻辑的研究。
         </p>
         <p>
          栗子2：普林斯顿大学的信息技术政策中心（CITP）和北卡罗莱纳州大学教堂山分校（University of North Carolina at Chapel Hill）在2013年发表了一篇文章《Big Data: Pitfalls, Methods and Concepts for an Emergent Field：大数据：一个新兴领域的陷阱、方法和概念》。通过实验对一些市场营销人员发出警告：请首先确认抽样的方法是否能够真正地覆盖的整个市场，不要对从社交媒体渠道（如Twitter和Facebook）收集的消费者数据过于自信。
         </p>
         <blockquote>
          <p>
           1.Inadequate attention to the implicit and explicit structural biases of the platform(s) most frequently used to generate datasets (the model organism problem).
          </p>
          <p>
           2.The common practice of selecting on the dependent variable without corresponding attention to the complications of this path.
          </p>
          <p>
           3.Lack of clarity with regard to sampling, universe and representativeness (the denominator problem).
          </p>
          <p>
           4.Most big data analyses come from a single platform (hence missing the ecology of information flows).
          </p>
         </blockquote>
         <p>
          作者Zeynep Tufekci（博客地址：
          <a class=" wrap external" href="http://technosociology.org/" rel="nofollow noreferrer" target="_blank">
           technosociology
           <i class="icon-external">
           </i>
          </a>
          ，北卡罗来纳大学教授）通过描述对果蝇进行生物测试的方法，质疑很大程度上依赖社会化媒体形成的大数据方法论。大多数的大数据集（Big datasets）研究只包含“节点到节点”（Node-to-node）之间的信息互动；然而面对社会中的群体性事件，无论是通过经验分享或通过广播媒体传播，“场”（Field）效应的地位更加重要。一个典型营销活动（Twitter、Facebook上）的用户参与百分比只有10%，只代表一定的细分市场，可能扭曲调查结果。这些市场调差报告不能准确反映市场的数据，所以无法据此制定出可靠的未来计划。
         </p>
         <p>
         </p>
         <p>
          <strong>
           (2).样本选取
          </strong>
          <strong>
           的区别
          </strong>
         </p>
         <p>
          从严格意义上来说统计范围的选择问题并不一定是故意欺骗，因为在数据采集的实践中确实存在样本量失衡的情况，如果遇到这种情况一般使用欠抽样（Under-sampling）和过抽样（Oversampling）进行样本平衡。通常来说样本的问题主要分为以下三种情况：
         </p>
         <ul>
          <li>
           <strong>
            样本抽取的数量
           </strong>
           。这一点很容易理解，数据样本量差距越大，可比性越小。尤其是在样本分布不均时，数据结果可信度低。
          </li>
          <li>
           <strong>
            样本抽取的主体
           </strong>
           。为了制造某种统计结果而故意选择对结果有利的样本主体。如针对农村用户和城市用户统计某手机市场占有率，后者结果肯定优于前者。
          </li>
          <li>
           <strong>
            样本抽取的客观环境
           </strong>
           。比如做运营商网站用户体验分析（User Experience，简称UE），ISO 9241-210标准中对用户体验的定义有如下补充说明：用户体验，即用户在使用一个产品或系统之前、使用期间和使用之后的全部感受，包括情感、信仰、喜好、认知印象、生理和心理反应、行为和成就等各个方面。三个影响用户体验的因素：
           <span style="text-decoration: underline;">
            系统，用户和使用环境
           </span>
           。如果测试方法都没有完全相同的客观环境，即使选的是相同样本和用户，分析结果可信度依然较低。
          </li>
         </ul>
         <p>
          更多资料推荐：
          <br/>
          <a class=" wrap external" href="http://book.douban.com/subject/2115303/" rel="nofollow noreferrer" target="_blank">
           抽样调查设计导论 (豆瓣)
           <i class="icon-external">
           </i>
          </a>
          <br/>
          <a class=" wrap external" href="http://book.douban.com/subject/1906375/" rel="nofollow noreferrer" target="_blank">
           Sampling (豆瓣)
           <i class="icon-external">
           </i>
          </a>
          （豆瓣版本老，现在有09年新版）
         </p>
         <p>
          <strong>
           (3).
          </strong>
          <b>
           离群
          </b>
          <strong>
           值处理方法
          </strong>
          <strong>
           的区别
          </strong>
         </p>
         <p>
          离群值（Outlier，异常值）：指样本中的个别值，其数值明显偏离其所属样本的其余观测值。
         </p>
         <p>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/3.jpg">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/3.jpg"/>
          </a>
         </p>
         <p>
          离群值与非离群值之间并没有明显的区别。实际上，用户必须指定一个阈值，以便界定离群值。偏差度高于这个阈值的所有集群被标记为离群值集群，它们的成员都是离群值。如上图中所示。如果设定阈值600，则Cluster3为离群值。
         </p>
         <p>
         </p>
         <p>
          目前对离群值（Outlier）的判别与过滤主要采用两种方法：
          <b>
           物理判别法和统计判别法
          </b>
          。
         </p>
         <ul>
          <li>
           物理判别法：根据人们对客观事物已有的认识来判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果。
          </li>
          <li>
           统计判别
           <span style="text-decoration: underline;">
            法
           </span>
           ：给定一个置信概率，并确定一个置信限，凡是超过此限的误差我们就认为它不属于随机误差范围，将其视为异常值过滤。
          </li>
         </ul>
         <p>
          通常面对样本时需要做整体数据观察，以确认样本数量、均值、极值、方差、标准差以及数据范围等。
          <b>
           极值很可能是离群值
          </b>
          ，此时如何处理离群值会直接影响数据结果。
         </p>
         <p>
         </p>
         <p>
          栗子：某一周的手机销售数据中，存在异常下单行为导致某一品类的销售额和转化率异常高。如果数据分析师选择忽视该情况，结论就是该手机非常热销抓紧供货，但实际情况并非如此。通常需要把会把离群值拿出来，单独做文字说明。
         </p>
         <p>
          <b>
           (4).统计指标
          </b>
          <strong>
           的区别
          </strong>
          <br/>
          数据统计的业务指标成百上千，根据不同目的选择合适的指标组合，就能实现说谎的效果。
         </p>
         <p>
          我们都知道，平均数是表示一组数据集中趋势的量数，它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中，
          <b>
           平均数（均值）和标准差
          </b>
          是描述数据资料集中趋势和离散程度的两个最重要的测度值。
         </p>
         <p>
          平均数在数学中可分为，算术平均数（arithmetic mean），几何平均数（geometric mean），调和平均数（harmonic mean），加权平均数（weighted average），平方平均数（quadratic mean）等。一般人大家所说的“平均数”就是算术平均数，即N个数字相加然后除以N。而“平均数”在统计学中包含三种：
          <span style="text-decoration: underline;">
           算术平均数、中位数、众数
          </span>
          ，都是用来描述数据平均水平的统计量。
         </p>
         <ul>
          <li>
           <b>
            算术平均数(Arithmetic mean)
           </b>
           ：一组数据中所有数据之和再除以数据的个数。
          </li>
         </ul>
         <p>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/4.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/4.png"/>
          </a>
         </p>
         <ul>
          <li>
           <b>
            中位数（
           </b>
           <b>
            Median）
           </b>
           ：将所有数值从高到低排列，最中间的数值。
          </li>
         </ul>
         <p>
          栗子：1，2，3，4；排序后发现有4个数怎么办？
          <br/>
          若有n个数，n为奇数，则选择第（n+1）/2个为中位数；若n为偶数，则中位数是（n/2以及n/2+1）的平均数。所以此例中位数为2.5。
         </p>
         <ul>
          <li>
           <b>
            众数（Mode）
           </b>
           ：所有数字中出现频率最高的数值。
          </li>
         </ul>
         <p>
          栗子：1，1，2，2，3，4的众数是1和2。如果所有数据出现的次数都一样，那么这组数据没有众数。例如：1，2，3，4没有众数。
         </p>
         <p>
          通过公式我们可以看出：
          <span style="text-decoration: underline;">
           算术平均数
          </span>
          易受极端数据的影响。
          <span style="text-decoration: underline;">
           中位数
          </span>
          不受分布数列的极大或极小值影响，在一定程度上对分布数列的具有代表性。但缺乏数字敏感性，有些离散型变量的单项式数列，当次数分布偏态时，中位数的代表性会受到影响。
          <span style="text-decoration: underline;">
           众数
          </span>
          不受极端数据的影响，而且具有明显集中趋势点的数值，能够代表整组数据的一般水平。在这三个平均数中，
          <b>
           算数平均数是能够取得最大数字的平均数
          </b>
          ，所以，一般的统计调查都用的是这个做结论，比如平均工资。所以有时候大家会发现自己的工资“被平均”了，或者拖后腿了就是这个原因。
          <a class=" wrap external" href="http://www.chinairn.com/news/20130609/112021877.html" rel="nofollow noreferrer" target="_blank">
           2013年北京月平均工资5223元
           <i class="icon-external">
           </i>
          </a>
         </p>
         <p>
          <b>
           结论：
          </b>
          对于不同的统计平均值的方法，得出的数据结论是不一样的。有太多人利用本来正确的统计数据来穿凿附会得出自己需要的结果，有些原始的统计数据往往是由权威机构或人士做出的，只是被其他人赋予了原调查目的之外的其他意义。 所以一般见到平均数后，首先查明使用的是哪种平均数计算方法，然后试着用另外两种分析一下，看看是否有破绽。
         </p>
         <p>
          更多资料推荐：
          <br/>
          <a class=" wrap external" href="http://book.douban.com/subject/2868313/" rel="nofollow noreferrer" target="_blank">
           Mind on Statistics (豆瓣)
           <i class="icon-external">
           </i>
          </a>
          <br/>
          <a class=" wrap external" href="http://book.douban.com/subject/1230154/" rel="nofollow noreferrer" target="_blank">
           统计学 (豆瓣)
           <i class="icon-external">
           </i>
          </a>
          <br/>
          <a class=" wrap external" href="http://book.douban.com/subject/10423393/" rel="nofollow noreferrer" target="_blank">
           Applied Multivariate Statistical Analysis (豆瓣)
           <i class="icon-external">
           </i>
          </a>
         </p>
         <p>
          <b>
           三、数据可视化
          </b>
          <b>
           如何说谎
          </b>
          <br/>
          统计数据的表现方法千差万别。虽然数据相同，但表述方式不同，呈现的效果也不同。
         </p>
         <p>
          <b>
           (1).图表长宽
          </b>
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/5.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/5.png"/>
          </a>
         </p>
         <p>
          由《系统事务平均响应时间趋势图》可见，将图表的长宽比(长=横轴，宽=纵轴）从1:1拉伸到2:1后，数据发展趋势明显变缓。如果需要突出数据的爆发性增长，可以缩短时间间隔或记录次数（横坐标）。
         </p>
         <ul>
          <li>
           左图暗示“系统事务平均响应时间在测试场景开始以后快速突破150秒”
          </li>
          <li>
           右图暗示“系统事务平均响应时间随着测试场景执行时间延长逐渐增加”
          </li>
         </ul>
         <p>
          <b>
           (2).取值间隔
          </b>
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/6.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/6.png"/>
          </a>
          <br/>
          由上图可知，如果数据的取值间隔划分过大（等比数列1,10,100,1000,10000）而不是标准等差数列（1,2,3,4），则数据之间巨大差异会被缩小。
         </p>
         <ul>
          <li>
           左图暗示“湖北、河南、江苏总产值排名前三远超其他省市”
          </li>
          <li>
           右图暗示“各省市总产值相差并不太大”
          </li>
         </ul>
         <p>
          <b>
           (3).
          </b>
          <strong>
           数据标准化
          </strong>
          <br/>
          <strong>
           数据标准化也是归一化的过程
          </strong>
          。在数据分析之前通常需要先将数据标准化（Normalization），目的是去除奇异样本数据（相对于其他输入样本特别大或特别小的样本矢量），将数据按比例缩放，使之落入一个小的特定区间。或者去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权，而且能保正程序运行时收敛加快。
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/7.gif">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/7.gif"/>
          </a>
          如上图所示，正态分布中的各类分段方法。包括: Standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nine, percent in stanine.(
          <a class=" wrap external" href="http://en.wikipedia.org/wiki/Standard_score" rel="nofollow noreferrer" target="_blank">
           Standard score
           <i class="icon-external">
           </i>
          </a>
          )
         </p>
         <p>
          数据标准化常用方法有“Min-max”、“Z-score”、“Atan”和“Decimal scaling”等。
         </p>
         <ul>
          <li>
           <b>
            Min-max标准化（Min-max normalization）
           </b>
          </li>
         </ul>
         <p>
          适用于原始数据的取值范围已经确定的情况，缺点是当有新数据加入时，可能导致Max和Min值变化需要重新定义。设MinA和MaxA分别为属性A的最小值和最大值，将A的一个原始值x通过Min-max标准化映射成在区间【0,1】中的值，公式为：
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/8.jpg">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/8.jpg"/>
          </a>
         </p>
         <ul>
          <li>
           <strong>
            Z-score 标准化（Zero
            <strong>
             -score
            </strong>
            normalization）
           </strong>
          </li>
         </ul>
         <p>
          又名标准差标准化。经过处理的数据符合标准正态分布，均值为0，标准差为1。设μ为所有样本数据的均值，σ为所有样本数据的标准差。公式为：
         </p>
         <p>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/9.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/9.png"/>
          </a>
         </p>
         <ul>
          <li>
           <b>
            Atan函数转换
           </b>
          </li>
         </ul>
         <p>
          使用这个方法需要注意的是如果想映射的区间为[0,1]，则数据都应该大于等于0，小于0的数据将被映射到[-1,0]区间上。所以通过atan标准化会映射在区间【-1,1】上。
          <br/>
          <img src="http://dataunion.org/wp-content/uploads/2015/03/6a4dbd3fc7e0243c5e0ef1476669b682_b.jpg"/>
         </p>
         <ul>
          <li>
           <strong>
            <strong>
             小数定标标准化
            </strong>
            （
            <strong>
             Decimal scaling
            </strong>
            ）
           </strong>
          </li>
         </ul>
         <p>
          通过移动数据的小数点位置来进行标准化，小数点移动多少位取决于属性A的取值中的最大绝对值。这个方法比较容易理解
          <b>
           。
          </b>
         </p>
         <p>
          一个简单的例子对比如下图所示：
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/10.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/10.png"/>
          </a>
          <br/>
          了解更多：
         </p>
         <ul>
          <li>
           <a class="internal" href="http://www.zhihu.com/question/19710815">
            数据可视化的优秀入门书籍有哪些？
           </a>
          </li>
          <li>
           <a class="internal" href="http://www.zhihu.com/question/19740915">
            数据可视化是让信息易读，还是更复杂？
           </a>
          </li>
         </ul>
         <p>
          数据可视化经典例子：
         </p>
         <ul>
          <li>
           <a class=" wrap external" href="http://birdeye.googlecode.com/svn/branches/ng/examples/demo/BirdEyeExplorer.html" rel="nofollow noreferrer" target="_blank">
            googlecode-birdeye
            <i class="icon-external">
            </i>
           </a>
          </li>
          <li>
           <a class=" wrap external" href="http://www.axiis.org/examples.html" rel="nofollow noreferrer" target="_blank">
            Axiis : Data Visualization Framework
            <i class="icon-external">
            </i>
           </a>
          </li>
         </ul>
         <p>
          <b>
           四、结束语
          </b>
         </p>
         <p>
          数据如同金矿，需要人使用工具来开采、提炼、加工。
         </p>
         <p>
          所以数据不会说谎，使用数据的人才会说谎；有些人是无意，有些人是蓄意。
         </p>
         <p>
          <b>
           祝每一个DMer都挖掘到金矿和快乐：）
          </b>
         </p>
         <p>
          参考文献：
          <br/>
          <i>
           [1].
           <a class=" wrap external" href="http://en.wikipedia.org/wiki/Sampling_(statistics)" rel="nofollow noreferrer" target="_blank">
            维基百科
            <i class="icon-external">
            </i>
           </a>
           <a class=" wrap external" href="http://en.wikipedia.org/wiki/Sampling_(statistics)" rel="nofollow noreferrer" target="_blank">
            Sampling (statistics)
            <i class="icon-external">
            </i>
           </a>
           <br/>
           [2].
           <a class=" wrap external" href="http://jpkc.zju.edu.cn/k/554/preparation/Stat/1.htm" rel="nofollow noreferrer" target="_blank">
            数据抽样方法
            <i class="icon-external">
            </i>
           </a>
           （浙江大学《数据统计》）
           <br/>
           [3].
           <a class=" wrap external" href="http://www.searchmarketingart.com/3-types-of-data-lying.html" rel="nofollow noreferrer" target="_blank">
            常见的“数据说谎”
            <i class="icon-external">
            </i>
           </a>
           （TonySong，Webtrekk Business Consultant）
           <br/>
           [4].
           <a class=" wrap external" href="http://www.freelw.com/pdf/20140214/1392417275802.pdf" rel="nofollow noreferrer" target="_blank">
            融合过抽样和欠抽样的不平衡数据重抽样方法
            <i class="icon-external">
            </i>
           </a>
           <br/>
           [5].《Asking The Right Questions:A Guide to Critical Thinking：学会提问-批判性思维指南》
           <br/>
           [6].《How to Lie with Statistics：统计数字会撒谎》
           <br/>
           [7].《
           <a class=" wrap external" href="http://www.datascienceassn.org/sites/default/files/Big%20Data%20-%20Pitfalls,%20Methods%20and%20Concepts%20for%20an%20Emergent%20Field.pdf" rel="nofollow noreferrer" target="_blank">
            Big Data: Pitfalls, Methods and Concepts for an Emergent Fielde》
            <i class="icon-external">
            </i>
           </a>
           <br/>
           [8].
           <a class=" wrap external" href="http://www.iwh.on.ca/wrmb/primary-data-and-secondary-data" rel="nofollow noreferrer" target="_blank">
            primary data and secondary data
            <i class="icon-external">
            </i>
           </a>
           <br/>
           [9].
           <a class=" wrap external" href="http://www.cnblogs.com/huanghaopeng/p/3283015.html" rel="nofollow noreferrer" target="_blank">
            性能测试中常见的loadrunner analysis误导
            <i class="icon-external">
            </i>
           </a>
           <br/>
           [10].《Data Mining: Concepts and Techniques》, Jiawei Han and Micheline Kamber
          </i>
          <br/>
          <i>
           [11].
           <a class=" wrap external" href="http://www.benetzkorn.com/2011/11/data-normalization-and-standardization/" rel="nofollow noreferrer" target="_blank">
            Data Normalization and Standardization
            <i class="icon-external">
            </i>
           </a>
          </i>
         </p>
         <p>
         </p>
         <h3 class="zm-item-answer-author-wrap">
          <a data-tip="p$t$xie-ke-41" href="http://www.zhihu.com/people/xie-ke-41">
           谢科
          </a>
          答：[2767赞]
         </h3>
         <p>
          截图说话——哗众取宠的美国Fox news经常用的一些招数。
         </p>
         <p>
          这些招数更多的是从视觉上给人一种“错觉”。比如说，本来不大的差异，截掉Y轴的一部分，瞬间差异就会让看的人觉得——差得这么多！！！
         </p>
         <p>
          想象你明天要跟你的经理作报告，手里有一堆结果，但是显然这些结果对于之前的方法只有边际的增长——好消息是，你几乎一定可以找到一个方法，在数据变化不大的时候却给人造成视觉的冲击。
         </p>
         <p>
          例子：
          <br/>
          1）在趋势图中，为了说明增长趋势多明显，把Y调成不从0开始。这样差距会看起来很大，增长很大，但是如果把Y轴从0开始看的话，会显得基本没有差距。
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/11.jpg">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/11.jpg"/>
          </a>
          <br/>
          差距够大吧！！！巨量增长啊！我们公司的财务情况这样的话，公司明年就得IPO啊！！
         </p>
         <p>
          可惜Y从0开始的话，这图应该看起来的样子是：
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/12.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/12.png"/>
          </a>
          <br/>
          p.s.刚发现在用Excel画这图的时候，excel都自动把Y轴的起始值调成比最小值多一点！这样看起来差距真是巨明显有没有！看来M$真是很懂画图的真正需求啊:D
         </p>
         <p>
          2) 另外一个例子，作两两比较的时候把Y的值从高位开始，造成俩差距巨大的错觉
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/13.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/13.png"/>
          </a>
          <br/>
          看啊，右边比左边高了4倍不止！！！咦，等等，不是就39.6%跟35%的差别吗….这…
         </p>
         <p>
          3) 分数加起来不等于一，放大差距。
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/14.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/14.png"/>
          </a>
          图上的数据normalize一下的话那么佩林是36.2%，32.6%，31.0%，直观差距不大。但是在这个饼型图里瞬间变成了10%的差距！这个比较明显的话那看下面
         </p>
         <p>
          这里
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/15.jpg">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/15.jpg"/>
          </a>
          <br/>
          一扫的话没发现这里百分数加起来不等于1了吧。
         </p>
         <p>
          4) 挑取x轴的数据以捏造趋势
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/16.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/16.png"/>
          </a>
          <br/>
          假设数据的波动性很大，比如说如下
         </p>
         <p>
          10, 1, 20, 3, 30, 4, 50
          <br/>
          看起来应该是
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/17.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/17.png"/>
          </a>
          <br/>
          擦勒，公司的财务状况这么不稳定！！！怎么办！
         </p>
         <p>
          没关系——如果我只抽取奇数项的话（挑取x轴，虽然挑得好像是很有系统地——奇数，但是你总能想到一个看着挑得系统的方法）
          <br/>
          就会看着像
          <br/>
          <a href="http://dataunion.org/wp-content/uploads/2015/03/18.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/03/18.png"/>
          </a>
          <br/>
          TMD明年又可以上市了。。。
         </p>
         <p>
          等等等等…
         </p>
         <p>
          部分图片来源于
          <a class=" external" href="http://simplystatistics.org/2012/11/26/the-statisticians-at-fox-news-use-classic-and-novel-graphical-techniques-to-lead-with-data/" rel="nofollow noreferrer" target="_blank">
           <span class="invisible">
            http://
           </span>
           <span class="visible">
            simplystatistics.org/20
           </span>
           <span class="invisible">
            12/11/26/the-statisticians-at-fox-news-use-classic-and-novel-graphical-techniques-to-lead-with-data/
           </span>
           <i class="icon-external">
           </i>
          </a>
         </p>
         <p>
         </p>
         <p>
          知乎原帖》》
          <a href="http://www.zhihu.com/question/19578400">
           http://www.zhihu.com/question/19578400
          </a>
         </p>
         <p>
         </p>
         <blockquote>
          <p>
           职位推荐
          </p>
          <p>
           <a href="http://dataunion.org/11539.html" target="_blank" title="【内推】【急招！】数据分析师（CRM/营销/舆情方向）-10k~18k-北上广">
            数据分析师（CRM/营销/舆情方向）-10k~18k-北上广
           </a>
          </p>
          <p>
           <a href="http://dataunion.org/10192.html" target="_blank" title="【内推】数据分析师（BI事业部）-15K~25K-北京-估值上亿美元大数据信用评估公司">
            数据分析师（BI事业部）-15K~25K-北京-估值上亿美元大数据信用评估公司
           </a>
          </p>
          <p>
           <a href="http://dataunion.org/10188.html" target="_blank" title="【内推】数据分析师（数据模型事业部）-15K~25K-北京-估值上亿美元大数据信用评估公司">
            数据分析师（数据模型事业部）-15K~25K-北京-估值上亿美元大数据信用评估公司
           </a>
          </p>
         </blockquote>
         <p>
         </p>
        </div>
       </div>
      </div>
      <div>
       <strong>
        注：转载文章均来自于公开网络，仅供学习使用，不会用于任何商业用途，如果侵犯到原作者的权益，请您与我们联系删除或者授权事宜，联系邮箱：contact@dataunion.org。转载数盟网站文章请注明原文章作者，否则产生的任何版权纠纷与数盟无关。
       </strong>
      </div>
      <!--content_text-->
      <div class="fenxian">
       <!-- JiaThis Button BEGIN -->
       <div class="jiathis_style_32x32">
        <p class="jiathis_button_weixin">
        </p>
        <p class="jiathis_button_tsina">
        </p>
        <p class="jiathis_button_qzone">
        </p>
        <p class="jiathis_button_cqq">
        </p>
        <p class="jiathis_button_tumblr">
        </p>
        <a class="jiathis jiathis_txt jtico jtico_jiathis" href="http://www.jiathis.com/share" target="_blank">
        </a>
        <p class="jiathis_counter_style">
        </p>
       </div>
       <!-- JiaThis Button END -->
      </div>
     </article>
     <!--content-->
     <!--相关文章-->
     <div class="xianguan">
      <div class="xianguantitle">
       相关文章！
      </div>
      <ul class="pic">
       <li>
        <a href="http://dataunion.org/24638.html">
         <img src="http://dataunion.org/wp-content/uploads/2016/06/wKioL1ZEJp3jRet8AACxXwc7b9I583-245x200.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/24638.html" rel="bookmark" title="在TensorFlow里使用卷积神经网络进行图像和文本识别">
         在TensorFlow里使用卷积神经网络进行图像和文本识别
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/24534.html">
         <img src="http://dataunion.org/wp-content/uploads/2015/05/01132835_70592-300x199.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/24534.html" rel="bookmark" title="基于heatmaply和plotly的交互式热力图">
         基于heatmaply和plotly的交互式热力图
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/24514.html">
         <img src="http://dataunion.org/wp-content/uploads/2016/05/146456584884267800_a580x330-300x171.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/24514.html" rel="bookmark" title="python中的魔术方法__">
         python中的魔术方法__
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/24396.html">
         <img src="http://dataunion.org/wp-content/uploads/2015/07/QQ截图20150725215416_副本-298x300.png"/>
        </a>
        <a class="link" href="http://dataunion.org/24396.html" rel="bookmark" title="人工智能、机器学习等，2016年值得关注的27项企业技术">
         人工智能、机器学习等，2016年值得关注的27项企业技术
        </a>
       </li>
      </ul>
     </div>
     <!--相关文章-->
     <div class="comment" id="comments">
      <!-- You can start editing here. -->
      <!-- If comments are open, but there are no comments. -->
      <div class="title">
       期待你一针见血的评论，Come on！
      </div>
      <div id="respond">
       <p>
        不用想啦，马上
        <a href="http://dataunion.org/wp-login.php?redirect_to=http%3A%2F%2Fdataunion.org%2F11551.html">
         "登录"
        </a>
        发表自已的想法.
       </p>
      </div>
     </div>
     <!-- .nav-single -->
    </div>
    <!--Container End-->
    <aside id="sitebar">
     <div class="sitebar_list2">
      <div class="wptag">
       <span class="tagtitle">
        热门标签+
       </span>
       <div class="tagg">
        <ul class="menu" id="menu-%e5%8f%8b%e6%83%85%e9%93%be%e6%8e%a5">
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-1605" id="menu-item-1605">
          <a href="http://taidizh.com/">
           泰迪智慧
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-20884" id="menu-item-20884">
          <a href="http://www.transwarp.cn/">
           星环科技
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-3538" id="menu-item-3538">
          <a href="http://datall.org/">
           珈和遥感
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-20888" id="menu-item-20888">
          <a href="http://www.chinahadoop.cn/">
           小象学院
          </a>
         </li>
        </ul>
       </div>
      </div>
     </div>
     <div class="sitebar_list">
      <div class="textwidget">
       <div align="center">
        <a href="http://study.163.com/course/courseMain.htm?courseId=991022" target="_blank">
         <img src="http://dataunion.org/wp-content/uploads/2016/03/dv.jpg"/>
        </a>
       </div>
      </div>
     </div>
     <div class="sitebar_list">
      <h4 class="sitebar_title">
       文章分类
      </h4>
      <div class="tagcloud">
       <a class="tag-link-44" href="http://dataunion.org/category/industry/demo" style="font-size: 10.204724409449pt;" title="4个话题">
        Demo展示
       </a>
       <a class="tag-link-31" href="http://dataunion.org/category/experts" style="font-size: 15.826771653543pt;" title="52个话题">
        专家团队
       </a>
       <a class="tag-link-870" href="http://dataunion.org/category/tech/ai" style="font-size: 19.795275590551pt;" title="273个话题">
        人工智能
       </a>
       <a class="tag-link-488" href="http://dataunion.org/category/%e5%8a%a0%e5%85%a5%e6%95%b0%e7%9b%9f" style="font-size: 8pt;" title="1个话题">
        加入数盟
       </a>
       <a class="tag-link-869" href="http://dataunion.org/category/tech/viz" style="font-size: 17.204724409449pt;" title="93个话题">
        可视化
       </a>
       <a class="tag-link-30" href="http://dataunion.org/category/partners" style="font-size: 10.645669291339pt;" title="5个话题">
        合作伙伴
       </a>
       <a class="tag-link-889" href="http://dataunion.org/category/parterc" style="font-size: 11.582677165354pt;" title="8个话题">
        合作会议
       </a>
       <a class="tag-link-104" href="http://dataunion.org/category/books" style="font-size: 12.96062992126pt;" title="15个话题">
        图书
       </a>
       <a class="tag-link-220" href="http://dataunion.org/category/tech/base" style="font-size: 19.850393700787pt;" title="281个话题">
        基础架构
       </a>
       <a class="tag-link-219" href="http://dataunion.org/category/tech/analysis" style="font-size: 19.409448818898pt;" title="232个话题">
        数据分析
       </a>
       <a class="tag-link-887" href="http://dataunion.org/category/tech/dm" style="font-size: 13.291338582677pt;" title="17个话题">
        数据挖掘
       </a>
       <a class="tag-link-34" href="http://dataunion.org/category/tech" style="font-size: 20.732283464567pt;" title="404个话题">
        文章
       </a>
       <a class="tag-link-1" href="http://dataunion.org/category/uncategorized" style="font-size: 22pt;" title="693个话题">
        未分类
       </a>
       <a class="tag-link-4" href="http://dataunion.org/category/events" style="font-size: 14.503937007874pt;" title="29个话题">
        活动
       </a>
       <a class="tag-link-890" href="http://dataunion.org/category/tech/%e6%b7%b1%e5%ba%a6%e5%ad%a6%e4%b9%a0" style="font-size: 10.204724409449pt;" title="4个话题">
        深度学习
       </a>
       <a class="tag-link-221" href="http://dataunion.org/category/tech/devl" style="font-size: 18.968503937008pt;" title="193个话题">
        编程语言
       </a>
       <a class="tag-link-888" href="http://dataunion.org/category/career" style="font-size: 15.661417322835pt;" title="48个话题">
        职业规划
       </a>
       <a class="tag-link-5" href="http://dataunion.org/category/jobs" style="font-size: 14.11811023622pt;" title="25个话题">
        职位
       </a>
       <a class="tag-link-871" href="http://dataunion.org/category/industry" style="font-size: 15.716535433071pt;" title="49个话题">
        行业
       </a>
       <a class="tag-link-613" href="http://dataunion.org/category/industry/case" style="font-size: 16.984251968504pt;" title="84个话题">
        行业应用
       </a>
       <a class="tag-link-885" href="http://dataunion.org/category/industry/news" style="font-size: 17.425196850394pt;" title="102个话题">
        行业资讯
       </a>
       <a class="tag-link-10" href="http://dataunion.org/category/training" style="font-size: 14.228346456693pt;" title="26个话题">
        课程
       </a>
       <a class="tag-link-16" href="http://dataunion.org/category/sources" style="font-size: 15.661417322835pt;" title="48个话题">
        资源
       </a>
      </div>
     </div>
     <div class="sitebar_list">
      <h4 class="sitebar_title">
       功能
      </h4>
      <ul>
       <li>
        <a href="http://dataunion.org/wp-login.php?action=register">
         注册
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/wp-login.php">
         登录
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/feed">
         文章
         <abbr title="Really Simple Syndication">
          RSS
         </abbr>
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/comments/feed">
         评论
         <abbr title="Really Simple Syndication">
          RSS
         </abbr>
        </a>
       </li>
       <li>
        <a href="https://cn.wordpress.org/" title="基于WordPress，一个优美、先进的个人信息发布平台。">
         WordPress.org
        </a>
       </li>
      </ul>
     </div>
    </aside>
    <div class="clear">
    </div>
   </div>
   <!--main-->
   ﻿
   <footer id="dibu">
    <div class="about">
     <div class="right">
      <ul class="menu" id="menu-%e5%ba%95%e9%83%a8%e8%8f%9c%e5%8d%95">
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-18024" id="menu-item-18024">
        <a href="http://dataunion.org/category/partners">
         合作伙伴
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-20881" id="menu-item-20881">
        <a href="http://dataunion.org/contribute">
         文章投稿
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20872" id="menu-item-20872">
        <a href="http://dataunion.org/category/%e5%8a%a0%e5%85%a5%e6%95%b0%e7%9b%9f">
         加入数盟
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-22441" id="menu-item-22441">
        <a href="http://dataunion.org/f-links">
         友情链接
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-20874" id="menu-item-20874">
        <a href="http://dataunion.org/aboutus">
         关于数盟
        </a>
       </li>
      </ul>
      <p class="banquan">
       数盟社区        ，
        做最棒的数据科学社区
      </p>
     </div>
     <div class="left">
      <ul class="bottomlist">
       <li>
        <a href="http://weibo.com/DataScientistUnion  " target="_blank" 　title="">
         <img src="http://dataunion.org/wp-content/themes/yzipi/images/weibo.png"/>
        </a>
       </li>
       <li>
        <a class="cd-popup-trigger" href="http://dataunion.org/11551.html#0">
         <img src="http://dataunion.org/wp-content/themes/yzipi/images/weixin.png"/>
        </a>
       </li>
      </ul>
      <div class="cd-popup">
       <div class="cd-popup-container">
        <h1>
         扫描二维码,加微信公众号
        </h1>
        <img src="http://dataunion.org/wp-content/themes/yzipi/images/2014-12-06-1515289049.png"/>
        <a class="cd-popup-close" href="http://dataunion.org/11551.html">
        </a>
       </div>
       <!-- cd-popup-container -->
      </div>
      <!-- cd-popup -->
     </div>
    </div>
    <!--about-->
    <div class="bottom">
     <a href="http://dataunion.org/">
      数盟社区
     </a>
     <a href="http://www.miitbeian.gov.cn/" rel="external nofollow" target="_blank">
      京ICP备14026740号
     </a>
     联系我们：
     <a href="mailto:contact@dataunion.org" target="_blank">
      contact@dataunion.org
     </a>
     <div class="tongji">
     </div>
     <!--bottom-->
     <div class="scroll" id="scroll" style="display:none;">
      ︿
     </div>
    </div>
   </footer>
   <!--dibu-->
  </div>
 </body>
</html>